9 research outputs found

    Exploiting Physical Contacts for Robustness Improvement of a Dot-Painting Mission by a Micro Air Vehicle

    Full text link
    In this paper we address the problem of dot painting on a wall by a quadrotor Micro Air Vehicle (MAV), using on-board low cost sensors (monocular camera and IMU) for localization. A method is proposed to cope with uncertainties on the initial positioning of the MAV with respect to the wall and to deal with walls composed of multiple segments. This method is based on an online estimation algorithm that makes use of information of physical contacts detected by the drone during the flight to improve the positioning accuracy of the painted dots. Simulation results are presented to assess quantitatively the efficiency of the proposed approaches

    Apprentissage par renforcement et transfert de la simulation au réel pour la commande adaptative d'un AUV

    No full text
    Les pilotes automatiques pour systèmes sans pilote sont généralement conçus sur la base des retours fournis par les capteurs de vitesse et d'orientation. Dans le cas des systèmes de pilotage automatique pour véhicules sous-marins autonomes (AUV), l'objectif principal de la conception est de compenser les forces perturbatrices induites par les vagues et le courant agissant sur leur corps. Les pilotes automatiques AUV existants ne sont cependant capables de compenser que les composantes basse fréquence des perturbations induites par la mer. Il semble naturel de supposer que les performances de l'AUV pourraient être améliorées en prenant en compte la nature des perturbations dans la conception du pilote automatique. Le contrôle adaptatif fournit ce qui semble être un cadre idéal à cette fin. L'objectif de cette technique est d'ajuster automatiquement les paramètres de contrôle face à des processus inconnus ou variables dans le temps, de manière à atteindre le seuil de performance souhaité. Développés à la fin des années 1950, les cadres de contrôle adaptatifs ont été considérablement étendus et utilisés dans divers domaines [...] et les contrôleurs adaptatifs ont commencé à être largement adoptés dans l’industrie au début des années 1980. Il était alors établi que les conceptions robustes avec des paramètres fixes étaient trop limitées pour gérer des régimes complexes. L'étude des contrôleurs adaptatifs pour les manœuvres des AUV est associée à divers défis, et cette thèse s'est concentrée sur les perturbations externes parmi lesquelles : - Dynamique inconnue : l'incertitude associée à la description précise des états des vagues ou des courants est élevée. Ceci, combiné à sa nature dynamique, empêche les méthodes de contrôle par rétroaction linéaire d'atteindre des performances optimales de l'installation. Cela devient plus critique en présence de changements dans les conditions météorologiques qui imposent un facteur multiplicatif dans la composante des forces induites. La période de perturbation variera également avec la vitesse du véhicule et son orientation par rapport aux vagues ; - Non-linéarité : la réponse du contrôleur à certains points de fonctionnement doit être trop conservatrice pour satisfaire aux spécifications à d'autres points de fonctionnement. Ceci est difficile à réaliser pour des paramètres fixes obtenus par linéarisation locale, qui n’englobent pas la totalité de l’enveloppe du régime. Dans cette thèse, nous avons considéré le cas où les AUV ont une observabilité limitée du processus et donc les incertitudes susmentionnées ne sont pas mesurées par le système. Une classe de méthodes de contrôle adaptatif, connues sous le nom de contrôleurs adaptatifs basés sur l'apprentissage, a été développée pour remédier à certaines de ces limitations. Cette famille de solutions utilise des méthodes d'optimisation sans modèle capables de compenser la partie inconnue d'un processus tout en maintenant un contrôle optimal de sa partie connue à l'aide de structures de contrôle traditionnelles basées sur des modèles. Parmi les différentes méthodes sans modèle, l’apprentissage par renforcement profond est actuellement en tête. Ils exploitent des outils statistiques puissants qui donnent aux systèmes de contrôle la capacité d’apprendre et de s’améliorer automatiquement à partir de l’expérience sans qu’on leur indique explicitement comment le faire. L'objectif de cette thèse était de formaliser un nouveau contrôle adaptatif basé sur l'apprentissage utilisant l'apprentissage par renforcement profond et le contrôle adaptatif de placement de pôles. De plus, nous avons proposé un nouveau mécanisme de relecture d’expérience qui prend en compte les caractéristiques du mécanisme de relecture biologique. Les méthodes ont été validées en simulation et en situation réelle, démontrant les bénéfices de combiner les deux théories plutôt que de les utiliser séparément.Autopilots for unmanned systems are usually designed based on the feedback provided by velocity and orientation sensors. In the case of autopilot systems for autonomous underwater vehicles (AUVs), the main objective in the design is to compensate for waves and current-induced disturbing forces acting on their body. Existing AUV autopilots are however only able to compensate for low-frequency components of sea-induced disturbances. It seems natural to assume that the AUV performance could be improved by taking the nature of the disturbances into account in the design of the autopilot. Adaptive control provides what seems to be an ideal framework for this end. The objective of this technique is to adjust automatically the control parameters when facing unknown or time-varying processes such that the desired performance threshold is met. Developed in the late 1950s, adaptive control frameworks have been considerably expanded and used in various fields, their application has been facilitated by the rapid progress in microelectronics and the increasing interaction between laboratories and companies, from aerospace to maritime industries. As a result, adaptive controllers started to be widely adopted in the industry in the early 1980s. It was established at that time that robust designs with fixed parameters are too limited to handle complex regimes. The study of adaptive controllers for AUV maneuvering is associated with various challenges, and the focus of this thesis was the external disturbances including: - Unknown dynamics: the uncertainty associated with describing precisely the states of waves or currents is high. This, together with its dynamic nature, prevents linear feedback control methods from achieving optimal performance of the plant. This becomes more critical in the presence of changes in weather conditions that impose a multiplicative factor in the component of the induced forces. The disturbance period will also vary with the speed of the vehicle and its orientation relative to the waves; - Nonlinearity: the controller response at some operating points must be overly conservative to satisfy the specification at other operating points. This is difficult to achieve for fixed parameters obtained through local linearization, that do not encompass the entire regime envelope. In this thesis, we considered the case where the AUVs have limited observability of the process and therefore the aforementioned uncertainties are not measured by the system. A class of adaptive control methods, known as learning-based adaptive controllers, have been developed to tackle some of these limitations. This family of solutions uses model-free optimization methods capable of compensating for the unknown part of a process while also maintaining optimal control of its known part using traditional model-based control structures. Among the various model-free methods, deep reinforcement learning is currently leading the field. They exploit strong statistical tools that provide control systems the ability to automatically learn and improve from experience without being explicitly told how to. The objective of this thesis was to formalize a novel learning-based adaptive control using deep reinforcement learning and adaptive pole-placement control. In addition, we proposed a novel experience replay mechanism that takes into account the characteristic of the biological replay mechanism. The methods were validated in simulation and in real life, demonstrating the benefits of combining both theories against using them separately

    Apprentissage par renforcement et transfert de la simulation au réel pour la commande adaptative d'un AUV

    No full text
    Autopilots for unmanned systems are usually designed based on the feedback provided by velocity and orientation sensors. In the case of autopilot systems for autonomous underwater vehicles (AUVs), the main objective in the design is to compensate for waves and current-induced disturbing forces acting on their body. Existing AUV autopilots are however only able to compensate for low-frequency components of sea-induced disturbances. It seems natural to assume that the AUV performance could be improved by taking the nature of the disturbances into account in the design of the autopilot. Adaptive control provides what seems to be an ideal framework for this end. The objective of this technique is to adjust automatically the control parameters when facing unknown or time-varying processes such that the desired performance threshold is met. Developed in the late 1950s, adaptive control frameworks have been considerably expanded and used in various fields, their application has been facilitated by the rapid progress in microelectronics and the increasing interaction between laboratories and companies, from aerospace to maritime industries. As a result, adaptive controllers started to be widely adopted in the industry in the early 1980s. It was established at that time that robust designs with fixed parameters are too limited to handle complex regimes. The study of adaptive controllers for AUV maneuvering is associated with various challenges, and the focus of this thesis was the external disturbances including: - Unknown dynamics: the uncertainty associated with describing precisely the states of waves or currents is high. This, together with its dynamic nature, prevents linear feedback control methods from achieving optimal performance of the plant. This becomes more critical in the presence of changes in weather conditions that impose a multiplicative factor in the component of the induced forces. The disturbance period will also vary with the speed of the vehicle and its orientation relative to the waves; - Nonlinearity: the controller response at some operating points must be overly conservative to satisfy the specification at other operating points. This is difficult to achieve for fixed parameters obtained through local linearization, that do not encompass the entire regime envelope. In this thesis, we considered the case where the AUVs have limited observability of the process and therefore the aforementioned uncertainties are not measured by the system. A class of adaptive control methods, known as learning-based adaptive controllers, have been developed to tackle some of these limitations. This family of solutions uses model-free optimization methods capable of compensating for the unknown part of a process while also maintaining optimal control of its known part using traditional model-based control structures. Among the various model-free methods, deep reinforcement learning is currently leading the field. They exploit strong statistical tools that provide control systems the ability to automatically learn and improve from experience without being explicitly told how to. The objective of this thesis was to formalize a novel learning-based adaptive control using deep reinforcement learning and adaptive pole-placement control. In addition, we proposed a novel experience replay mechanism that takes into account the characteristic of the biological replay mechanism. The methods were validated in simulation and in real life, demonstrating the benefits of combining both theories against using them separately.Les pilotes automatiques pour systèmes sans pilote sont généralement conçus sur la base des retours fournis par les capteurs de vitesse et d'orientation. Dans le cas des systèmes de pilotage automatique pour véhicules sous-marins autonomes (AUV), l'objectif principal de la conception est de compenser les forces perturbatrices induites par les vagues et le courant agissant sur leur corps. Les pilotes automatiques AUV existants ne sont cependant capables de compenser que les composantes basse fréquence des perturbations induites par la mer. Il semble naturel de supposer que les performances de l'AUV pourraient être améliorées en prenant en compte la nature des perturbations dans la conception du pilote automatique. Le contrôle adaptatif fournit ce qui semble être un cadre idéal à cette fin. L'objectif de cette technique est d'ajuster automatiquement les paramètres de contrôle face à des processus inconnus ou variables dans le temps, de manière à atteindre le seuil de performance souhaité. Développés à la fin des années 1950, les cadres de contrôle adaptatifs ont été considérablement étendus et utilisés dans divers domaines [...] et les contrôleurs adaptatifs ont commencé à être largement adoptés dans l’industrie au début des années 1980. Il était alors établi que les conceptions robustes avec des paramètres fixes étaient trop limitées pour gérer des régimes complexes. L'étude des contrôleurs adaptatifs pour les manœuvres des AUV est associée à divers défis, et cette thèse s'est concentrée sur les perturbations externes parmi lesquelles : - Dynamique inconnue : l'incertitude associée à la description précise des états des vagues ou des courants est élevée. Ceci, combiné à sa nature dynamique, empêche les méthodes de contrôle par rétroaction linéaire d'atteindre des performances optimales de l'installation. Cela devient plus critique en présence de changements dans les conditions météorologiques qui imposent un facteur multiplicatif dans la composante des forces induites. La période de perturbation variera également avec la vitesse du véhicule et son orientation par rapport aux vagues ; - Non-linéarité : la réponse du contrôleur à certains points de fonctionnement doit être trop conservatrice pour satisfaire aux spécifications à d'autres points de fonctionnement. Ceci est difficile à réaliser pour des paramètres fixes obtenus par linéarisation locale, qui n’englobent pas la totalité de l’enveloppe du régime. Dans cette thèse, nous avons considéré le cas où les AUV ont une observabilité limitée du processus et donc les incertitudes susmentionnées ne sont pas mesurées par le système. Une classe de méthodes de contrôle adaptatif, connues sous le nom de contrôleurs adaptatifs basés sur l'apprentissage, a été développée pour remédier à certaines de ces limitations. Cette famille de solutions utilise des méthodes d'optimisation sans modèle capables de compenser la partie inconnue d'un processus tout en maintenant un contrôle optimal de sa partie connue à l'aide de structures de contrôle traditionnelles basées sur des modèles. Parmi les différentes méthodes sans modèle, l’apprentissage par renforcement profond est actuellement en tête. Ils exploitent des outils statistiques puissants qui donnent aux systèmes de contrôle la capacité d’apprendre et de s’améliorer automatiquement à partir de l’expérience sans qu’on leur indique explicitement comment le faire. L'objectif de cette thèse était de formaliser un nouveau contrôle adaptatif basé sur l'apprentissage utilisant l'apprentissage par renforcement profond et le contrôle adaptatif de placement de pôles. De plus, nous avons proposé un nouveau mécanisme de relecture d’expérience qui prend en compte les caractéristiques du mécanisme de relecture biologique. Les méthodes ont été validées en simulation et en situation réelle, démontrant les bénéfices de combiner les deux théories plutôt que de les utiliser séparément

    Sim-to-Real Transfer with Incremental Environment Complexity for Reinforcement Learning of Depth-Based Robot Navigation

    No full text
    International audienceTransferring learning-based models to the real world remains one of the hardest problems in model-free control theory. Due to the cost of data collection on a real robot and the limited sample efficiency of Deep Reinforcement Learning algorithms, models are usually trained in a simulator which theoretically provides an infinite amount of data. Despite offering unbounded trial and error runs, the reality gap between simulation and the physical world brings little guarantee about the policy behavior in real operation. Depending on the problem, expensive real fine-tuning and/or a complex domain randomization strategy may be required to produce a relevant policy. In this paper, a Soft-Actor Critic (SAC) training strategy using incremental environment complexity is proposed to drastically reduce the need for additional training in the real world. The application addressed is depth-based mapless navigation, where a mobile robot should reach a given waypoint in a cluttered environment with no prior mapping information. Experimental results in simulated and real environments are presented to assess quantitatively the efficiency of the proposed approach, which demonstrated a success rate twice higher than a naive strategy

    Learning Adaptive Control of a UUV using A Bio-Inspired Experience Replay Mechanism

    No full text
    Deep Reinforcement Learning (DRL) methods are increasingly being applied in Unmanned Underwater Vehicles (UUV) providing adaptive control responses to environmental disturbances. However, in physical platforms, these methods are hindered by their inherent data inefficiency and performance degradation when subjected to unforeseen process variations. This is particularly notorious in UUV manoeuvring tasks, where process observability is limited due to the complex dynamics of the environment in which these vehicles operate. To overcome these limitations, this paper proposes a novel Biologically-Inspired Experience Replay method (BIER), which considers two types of memory buffers: one that uses incomplete (but recent) trajectories of state-action pairs, and another that emphasises positive rewards. The BIER method’s ability to generalise was assessed by training neural network controllers for tasks such as inverted pendulum stabilisation, hopping, walking, and simulating halfcheetah running from the Gym-based Mujoco continuous control benchmark. BIER was then used with the Soft Actor-Critic (SAC) method on UUV manoeuvring tasks to stabilise the vehicle at a given velocity and pose under unknown environment dynamics. The proposed method was evaluated through simulated scenarios in a ROS-based UUV Simulator, progressively increasing in complexity. These scenarios varied in terms of target velocity values and the intensity of current disturbances. The results showed that BIER outperformed standard Experience Replay (ER) methods, achieving optimal performance twice as fast as the latter in the assumed UUV domain
    corecore